Introduzione

BigData, Cloud y OpenSource

Ahora se sabe que una nueva palabra de moda está surgiendo en Internet y que tal vez esté reemplazando, o añadiendo, a la antigua «computación en la nube».

Big Data.

Los dos términos, que han sido objeto de bombardeo mediático en Internet, son también dos términos que están muy estrechamente vinculados entre sí, como queremos demostrar a continuación. Como también queremos mostrar cómo el mundo del BigData también está profundamente ligado al mundo OpenSource, veamos, por ejemplo, el vínculo entre Cloud Computing y OpenSource, en nuestra antigua nota.

Definición

Empecemos por algunas definiciones de BigData, para tratar de frenar los habituales errores periodísticos sensacionalistas, o intencionados con fines de marketing, a los que nos hemos acostumbrado sobradamente en cuanto al Cloud Computing. ¿Existe alguna definición oficial?

Citamos a WikiPedia, Gartner, IBM y la Universidad de Villanova en Tampa (Florida) y más adelante en el NIST:

WikiPedia ES

WikiPedia IT

Gartner – tomado del glosario

IBM , y también sugiero esta infografía suya de las 4V

Universidad de Villanova

Por ello, todo el mundo parece coincidir en definir el big data como «una colección de datos tan grande y compleja que requiere de herramientas diferentes a las tradicionales para ser analizada y visualizada». Entonces comienzan algunas diferencias:

Todo el mundo está de acuerdo en que «los datos provendrían potencialmente de fuentes heterogéneas», y aquí están los que argumentan que todos son «datos estructurados» y los que, en cambio, también les añaden «datos no estructurados».

Vayamos a las dimensiones que deben tener estos datos para llamarlos BigData, aquí obviamente hay discordancia y wikipedia en inglés argumenta con razón que el tamaño del bigdata está en constante movimiento, no podía ser de otra manera considerando los muchos estudios que cada año analizan el crecimiento de los datos producidos a nivel mundial. En 2012, se hablaba de un rango de decenas de terabytes a varios petabytes, para cada conjunto de datos, mientras que ahora estamos hablando de zettabytes (miles de millones de terabytes).

En cuanto al fondo, citamos este provocador artículo de Marco Russo enviado a Luca De Biase y publicado por él en su blog.

Todo el mundo está de acuerdo en las 3 V sobre las características del Big Data:

Y algunos hablan de una V de 4′:

Pero, ¿qué está haciendo el NIST con respecto a la definición de Big Data? Sabemos que el NIST se mueve lenta y engorrosamente, esto lo aprendimos de los muchos meses o más bien años en los que la definición de Cloud Computing estuvo permanentemente en borrador, y comenzaron a trabajar en ella desde 2008.

Pues bien, el NIST empieza a moverse cuando el gobierno de EE.UU. decide destinar 200 millones de dólares en la Iniciativa BigData, por lo que se pone en marcha el NIST BigData WorkShop y un Grupo de Trabajo abierto a todos, como se hizo para la definición y todos los documentos relacionados con el término Cloud Computing

Ecosistema

Para mostrar el tamaño del ecosistema global que gira en torno a este término, veamos tres infografías de Bloomberg, Forbes y Capgemini respectivamente.

Panorama de Big-Data-bloomberg
Bloomberg
Forbes
Capgemini

Ya a partir de estas tres infografías es evidente cómo las soluciones OpenSource se utilizan masivamente en el ecosistema BigData, incluso Forbes pone solo software OpenSource en las tecnologías.

Dimensión

Echemos un vistazo al mercado y al crecimiento en torno a este ecosistema de BigData

Según Gartner (datos de 2012), Big Data impulsará 28 mil millones de dólares de gasto en TI , Big Data crea grandes empleos: 4,4 millones de puestos de trabajo de TI en todo el mundo para soportar Big Data para 2015

Y ahora vamos a disfrutar de estas dos infografías, una de Asigra y otra de IBM, que es muy activa en el mundo del BigData:

En resumen, el mercado de Big Data requiere básicamente algunas cosas:

Oportunidad

El BigData, en mi opinión, es una gran oportunidad para las grandes empresas de HW y SW IT (IBM, HP, EMC, Oracle, etc) ya que despierta las necesidades de las empresas hacia la compra de HW en lugar del uso de la Nube Pública. También existe una creciente necesidad de software simple, dedicado y personalizado para el análisis de datos. Por supuesto, en muchos casos se podría mantener y procesar en Cloud Providers, y esto es lo que líderes del mercado como AWS llevan tiempo permitiendo hacer, con DynamoDB, RedShift, Elastic MapReduce, pero mantener petabytes o zettabytes (si estos son los valores a los que tenemos que referirnos para hablar de Bigdata) en la Nube cuesta mucho e incluso creo que puede ser conveniente mantener tu propia infraestructura. Es diferente si tenemos unos pocos terabytes de datos sobre los que queremos hacer DataAnalysis, y creo que este es el escenario más general, donde los servicios de una nube pública como AWS se vuelven realmente competitivos.

Recientemente, las grandes empresas de TI han abierto muchas oportunidades para las empresas, startups y el mundo de la investigación relacionada con Big Data, por ejemplo EMC anuncia el kit Hadoop Starter 2.0, o Microsoft que ofrece Hadoop en la nube de Azure, o SAS se alía con SAP en la plataforma Hana, también SAP HANA onDemand en AWS, o INTEL y AWS que ofrecen pruebas y pruebas gratuitas, en resumen, hay algo para todos, es una verdadera explosión para la economía de TI.

Código abierto y computación en la nube

Sobre BigData y Cloud Computing en la práctica ya hemos respondido, las posibilidades son muchas, hemos mencionado el líder máximo (AWS) y Azure, ya que ofrece Public Cloud, pero también a Google no le faltan herramientas útiles (BigQuery), por otro lado basta recordar el famoso y ya antiguo BigTable de Google, que se utiliza para su motor de búsqueda.

La Nube Pública, incluso en el caso del Big Data, puede ser muy útil y muy democrática (si no tenemos en cuenta el tamaño de los conjuntos de datos tan bien como lo tendrían las definiciones). Pensemos en la sencillez de no tener que gestionar sistemas de almacenamiento, copias de seguridad, recuperación ante desastres, de no tener que gestionar SW de DataAnalysis (si usamos alguna solución PaaS o SaaS), de la sencillez de poder mantener poca potencia activa durante periodos de no análisis (pagando poco) y de poder instanciar potencia de cálculo solo durante nuestras consultas.

Ahora llegamos a BigData y OpenSource; como hemos podido detectar hasta ahora, un nombre resuena con fuerza en todos los escenarios mencionados hasta ahora, HADOOP.

Hadoop es un marco de software de código abierto (licencia Apache 2.0) para almacenar y procesar grandes cantidades de datos en clústeres de hardware básico; Nació en 2005 de la mano de Doug Cutting y Mike Cafarella y si no recuerdo mal nació como una emulación SW de BigTable de Google, para proyectos de buscadores de la competencia.

De este proyecto han surgido muchas soluciones de almacenamiento distribuido, al igual que muchas soluciones de almacenamiento distribuido. Por ejemplo, Hadoop tiene muchos proyectos secundarios, como:

por mencionar los más conocidos en el mundo Hadoop.

Pero el código abierto al servicio del Big Data no se detiene ahí:

Nos detendremos aquí por ahora, pero seguiremos actualizando el artículo.

 

Salir de la versión móvil